12-3 せ@Y

資料濃縮(data condensing)的概念恰恰與資料編修(data editing)相反,由於在實際的範例中資料的點數經常十分龐大,而在眾多資料中,有不少資料的特徵均十分類似,因此我們希望透過一種自動化的機制,將資料中十分雷同的資料點移除,甚至希望將在分類上重要性較低的資料點移除,謂之資料濃縮。 圖6-2.a:資料濃縮 如圖6-2.a所示,所謂「在分類上重要性較低的點」指的是遠離分類邊界的資料點。因為我們只要知道每群資料的分佈範圍,便可以輕易地將該群分界線畫出,因此我們希望透過資料濃縮只留下每群資料的「殼」,藉以達到資料減量的目的。整個資料濃縮的流程可大致分成下面三個步驟: 1. 隨機選取任一點A,並尋找與A最接近的一點B。 2. 假如A與B屬於不同類,則重複步驟一。 3. 假如A與B屬於同一類,則移除A、B中任意一點。 在步驟三中,我們可以加入些許經驗法則來辨別A、B間何者重要性較低。在移除A或B之間,我們先求A與不同類資料點中最接近的一點間的距離為Dist(A);求B與不同類資料點中最接近的一點間的距離為Dist(B)。假如Dist(A)< Dist(B),表示A離分類邊界較近,因此A的重要性較大;反之,Dist(A)> Dist(B),表示B離分類邊界較近,因此B的重要性較大。 特別值得一提的是,在進行資料濃縮之前,我們通常都會先進行資料編修,先將過份靠近其他類的雜訊點移除,如此遺留下來的分類邊界才會更為鮮明。 下面是一個簡單的資料濃縮範例: 圖6-2.b:資料濃縮過程1(步驟一) 圖6-2.c:資料濃縮過程2 圖6-2.d:資料濃縮結果
Data Clustering and Pattern Recognition (資料分群與樣式辨認)